Telegram Group & Telegram Channel
🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично

Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.

🧩 Типовые причины падения качества:

1. Искажения входных признаков
— Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.


2. Отсутствие валидации на этапе inference
— Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).


3. Появление новых распределений (data drift)
— В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.


4. Неверная предобработка в проде
— Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.


🛠 Как защититься

➡️ Внедрить валидацию входных данных (тип, диапазон, формат).
➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям.
➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна.
➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных.
➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/970
Create:
Last Update:

🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично

Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.

🧩 Типовые причины падения качества:

1. Искажения входных признаков
— Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.


2. Отсутствие валидации на этапе inference
— Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).


3. Появление новых распределений (data drift)
— В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.


4. Неверная предобработка в проде
— Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.


🛠 Как защититься

➡️ Внедрить валидацию входных данных (тип, диапазон, формат).
➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям.
➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна.
➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных.
➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/970

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

Библиотека собеса по Data Science | вопросы с собеседований from br


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA